智能论文笔记

ModSelect: Automatic Modality Selection for Synthetic-to-Real Domain Generalization

Zdravko Marinov , Alina Roitberg , David Schneider , Rainer Stiefelhagen

分类：计算机视觉

2022-08-19

在设计多模式系统时，模态选择是一个重要的步骤，尤其是在跨域活动识别的情况下，因为某些模态比其他模式更适合域移动。但是，仅选择具有积极贡献的方式需要系统的方法。我们通过提出一种无监督的模态选择方法（ModSelect）来解决此问题，该方法不需要任何地面真相标签。我们确定多个单峰分类器的预测与它们的嵌入之间的域差异之间的相关性。然后，我们系统地计算模态选择阈值，该阈值仅选择具有较高相关性和低域差异的模态。我们在实验中表明，我们的方法ModSelect仅选择具有积极贡献的模态，并始终提高合成到现实域的适应基准的性能，从而缩小域间隙。

translated by 谷歌翻译

Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily Living

Zdravko Marinov , David Schneider , Alina Roitberg , Rainer Stiefelhagen

分类：计算机视觉

2022-08-03

在活动识别模型的现实应用应用中，域移动（例如外观变化）是一个关键挑战，范围从辅助机器人和智能家居到智能车辆的驾驶员观察。例如，虽然模拟是一种经济数据收集的绝佳方式，但合成到现实的域转移导致识别日常生活活动（ADL）的精度下降> 60％。我们应对这一挑战，并引入了一个活动域生成框架，该框架从视频培训数据推断出的不同现有活动方式（源域）中创建了新颖的ADL外观（新域）。我们的框架计算人体姿势，人体关节的热图和光流图，并将它们与原始RGB视频一起使用，以了解源域的本质，以生成全新的ADL域。通过最大化现有源外观和生成的新颖外观之间的距离，同时确保通过额外的分类损失保留活动的语义，可以优化该模型。虽然源数据多模态在此设计中是一个重要的概念，但我们的设置不依赖于多传感器设置（即，仅从单个视频中推断出所有源模式。）然后将新创建的活动域集成到训练中。 ADL分类网络，导致模型不太容易受到数据分布的变化的影响。对合成基准的SIMS4Action进行的广泛实验证明了域产生范式对跨域ADL识别的潜力，从而设定了新的最新结果。我们的代码可在https://github.com/zrrrrr1997/syn2real_dg上公开获得

translated by 谷歌翻译

Multi-modal Depression Estimation based on Sub-attentional Fusion

Ping-Cheng Wei , Kunyu Peng , Alina Roitberg , Kailun Yang , Jiaming Zhang , Rainer Stiefelhagen

分类：计算机视觉 | 机器人

2022-07-13

未能及时诊断并有效治疗抑郁症会导致全世界有超过2.8亿人患有这种心理障碍。抑郁症的信息提示可以从不同的异质资源（例如音频，视觉和文本数据）中收获，从而提高了对自动估计的新有效多模式融合方法的需求。在这项工作中，我们解决了从多模式数据中自动识别抑郁症的任务，并引入了一种接触机制，以连接异质信息，同时利用卷积双向LSTM作为我们的骨架。为了验证这一想法，我们对公共DAIC-WOZ基准进行了广泛的实验，以进行抑郁评估，该评估具有不同的评估模式，并考虑了特定性别的偏见。提出的模型在检测严重抑郁症和4.92 MAE时以0.89的精度和0.70 F1得分产生有效的结果。我们基于注意力的融合模块始终优于常规的晚期融合方法，并且与先前发表的抑郁估计框架相比，取得了竞争性能，同时学习诊断端到端的疾病并依靠较少的预处理步骤。

translated by 谷歌翻译

TransDARC: Transformer-based Driver Activity Recognition with Latent Space Feature Calibration

Kunyu Peng , Alina Roitberg , Kailun Yang , Jiaming Zhang , Rainer Stiefelhagen

分类：计算机视觉 | 机器人

2022-03-02

传统的基于视频的人类活动识别与深度学习的兴起有关，但这种效果较慢，因为涉及驾驶员行为的下游任务。了解车辆机舱内部的情况对于高级驾驶助理系统（ADA）至关重要，因为它可以识别出干扰，预测驾驶员的意图并导致更方便的人车相互作用。同时，驾驶员观察系统需要捕获驾驶状态的不同粒度，而驾驶员观察系统则面临着严重的障碍，而此类次级活动的复杂性随着自动化的上升和增加的驾驶员自由而增长。此外，很少在与训练集中相同的条件下部署模型，因为传感器的放置和类型因车辆而异，因此构成了数据驱动模型的现实生活的实质性障碍。在这项工作中，我们提出了一个基于视觉的新型框架，用于识别基于视觉变压器的次级驱动器行为和额外的增强功能分布校准模块。该模块在潜在的功能空间丰富和多样化功能级的训练集中运行，以改善对新型数据出现（例如传感器变化）和一般功能质量的概括。我们的框架始终导致更好的识别率，超过了所有粒度水平上公共驱动器和ACT基准的先前最新结果。我们的代码可在https://github.com/kpeng9510/transdarc上公开获取。

translated by 谷歌翻译

TransKD: Transformer Knowledge Distillation for Efficient Semantic Segmentation

Ruiping Liu , Kailun Yang , Alina Roitberg , Jiaming Zhang , Kunyu Peng , Huayao Liu , Rainer Stiefelhagen

分类：计算机视觉 | 机器人

2022-02-27

大型预训练的变压器是现代语义分割基准的顶部，但具有高计算成本和冗长的培训。为了提高这种约束，我们从综合知识蒸馏的角度来研究有效的语义分割，并考虑弥合多源知识提取和特定于变压器特定的斑块嵌入之间的差距。我们提出了基于变压器的知识蒸馏（TransKD）框架，该框架通过蒸馏出大型教师变压器的特征地图和补丁嵌入来学习紧凑的学生变形金刚，绕过长期的预训练过程并将FLOPS降低> 85.0％。具体而言，我们提出了两个基本和两个优化模块：（1）交叉选择性融合（CSF）可以通过通道注意和层次变压器内的特征图蒸馏之间的知识转移；（2）嵌入对齐（PEA）在斑块过程中执行尺寸转换，以促进贴片嵌入蒸馏；（3）全局本地上下文混合器（GL-MIXER）提取了代表性嵌入的全局和局部信息；（4）嵌入助手（EA）是一种嵌入方法，可以无缝地桥接老师和学生模型，并具有老师的渠道数量。关于CityScapes，ACDC和NYUV2数据集的实验表明，TransKD的表现优于最先进的蒸馏框架，并竞争了耗时的预训练方法。代码可在https://github.com/ruipingl/transkd上找到。

translated by 谷歌翻译

Delving Deep into One-Shot Skeleton-based Action Recognition with Diverse Occlusions

Kunyu Peng , Alina Roitberg , Kailun Yang , Jiaming Zhang , Rainer Stiefelhagen

分类：计算机视觉 | 机器人

2022-02-23

闭塞是现实世界中不断存在的普遍破坏。特别是对于稀疏的表示，例如人类骨骼，一些封闭的点可能会破坏几何和时间连续性，从而严重影响结果。然而，从骨骼序列（例如单发操作识别）中对数据筛查识别的研究并未明确考虑阻塞，尽管它们日常普遍存在。在这项工作中，我们明确应对基于骨架的单杆动作识别（SOAR）的身体阻塞。我们主要考虑两种遮挡变体：1）随机闭塞和2）由多种日常对象引起的更现实的遮挡，我们通过将现有的IKEA 3D家具模型投影到3D骨架的摄像机坐标系统中而产生。我们利用拟议的管道将三个流行动作识别数据集（NTU-120，NTU-60和Toyota Smart Home）的骨骼序列的一部分融合在一起，并正式从部分遮挡的身体姿势开始了第一个soar的基准。这是考虑数据筛选作用识别的第一个基准。我们的基准测试的另一个关键特性是日常物体产生的更现实的遮挡，即使在3D骨架的标准识别中，也仅考虑了随机缺少的关节。根据这项新任务，我们重新评估了最新的框架，并进一步引入了Trans4Soar，这是一种新的基于变压器的模型，该模型利用三个数据流和混合注意融合机制来减轻遮挡引起的不良影响。尽管我们的实验表明缺少骨骼部分的精度明显下降，但Trans4SOAR的效果较小，Trans4Soar在所有数据集上的表现都优于其他架构。 Trans4SOAR还在标准SOAR中产生最先进的方法，在NTU-120上超过了2.85％的最佳方法。

translated by 谷歌翻译

Affect-DML: Context-Aware One-Shot Recognition of Human Affect using Deep Metric Learning

Kunyu Peng , Alina Roitberg , David Schneider , Marios Koulakis , Kailun Yang , Rainer Stiefelhagen

分类：计算机视觉

2021-11-30

人类影响识别是一个完善的研究领域，具有许多应用，例如心理护理，但现有方法认为所有兴趣情绪都是先验的作为注释培训例子。然而，通过新颖的心理学理论的人类情感谱的粒度和改进的上升和改善语境中的情绪增加给数据收集和标签工作带来了相当大的压力。在本文中，我们在语境中概念化了对情绪的一次性识别 - 一种新的问题，旨在识别来自单个支持样品的更精细粒子水平的人体影响。为了解决这项具有挑战性的任务，我们遵循深度度量学习范例，并引入多模态情绪嵌入方法，通过利用人类外观的互补信息和通过语义分割网络获得的语义场景上下文来最大限度地减少相同情绪嵌入的距离。我们上下文感知模型的所有流都使用加权三态丢失和加权交叉熵损失来共同优化。我们对适应我们单次识别问题的Demotic DataSet的分类和数值情感识别任务进行了彻底的实验，揭示了从单一示例中分类人类影响是一项艰巨的任务。尽管如此，我们模型的所有变体都明显优于随机基线，同时利用语义场景上下文一致地提高了学习的表示，在一次射击情感识别中设置最先进的结果。为了促进对人类影响国家的更普遍表示的研究，我们将在https://github.com/kpeng9510/affect-dml下公开向社区公开提供我们的基准和模型。

translated by 谷歌翻译

Unsupervised construction of representations for oil wells via Transformers

Alina Rogulina , Nikita Baramiia , Valerii Kornilov , Sergey Petrakov , Alexey Zaytsev

分类：机器学习

2022-12-29

Determining and predicting reservoir formation properties for newly drilled wells represents a significant challenge. One of the variations of these properties evaluation is well-interval similarity. Many methodologies for similarity learning exist: from rule-based approaches to deep neural networks. Recently, articles adopted, e.g. recurrent neural networks to build a similarity model as we deal with sequential data. Such an approach suffers from short-term memory, as it pays more attention to the end of a sequence. Neural network with Transformer architecture instead cast their attention over all sequences to make a decision. To make them more efficient in terms of computational time, we introduce a limited attention mechanism similar to Informer and Performer architectures. We conduct experiments on open datasets with more than 20 wells making our experiments reliable and suitable for industrial usage. The best results were obtained with our adaptation of the Informer variant of Transformer with ROC AUC 0.982. It outperforms classical approaches with ROC AUC 0.824, Recurrent neural networks with ROC AUC 0.934 and straightforward usage of Transformers with ROC AUC 0.961.

translated by 谷歌翻译

MN-DS: A Multilabeled News Dataset for News Articles Hierarchical Classification

Alina Petukhova , Nuno Fachada

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-22

This article presents a dataset of 10,917 news articles with hierarchical news categories collected between January 1st 2019, and December 31st 2019. We manually labelled the articles based on a hierarchical taxonomy with 17 first-level and 109 second-level categories. This dataset can be used to train machine learning models for automatically classifying news articles by topic. This dataset can be helpful for researchers working on news structuring, classification, and predicting future events based on released news.

translated by 谷歌翻译

Beyond SOT: It's Time to Track Multiple Generic Objects at Once

Christoph Mayer , Martin Danelljan , Ming-Hsuan Yang , Vittorio Ferrari , Luc Van Gool , Alina Kuznetsova

分类：计算机视觉

2022-12-22

Generic Object Tracking (GOT) is the problem of tracking target objects, specified by bounding boxes in the first frame of a video. While the task has received much attention in the last decades, researchers have almost exclusively focused on the single object setting. Multi-object GOT benefits from a wider applicability, rendering it more attractive in real-world applications. We attribute the lack of research interest into this problem to the absence of suitable benchmarks. In this work, we introduce a new large-scale GOT benchmark, LaGOT, containing multiple annotated target objects per sequence. Our benchmark allows researchers to tackle key remaining challenges in GOT, aiming to increase robustness and reduce computation through joint tracking of multiple objects simultaneously. Furthermore, we propose a Transformer-based GOT tracker TaMOS capable of joint processing of multiple objects through shared computation. TaMOs achieves a 4x faster run-time in case of 10 concurrent objects compared to tracking each object independently and outperforms existing single object trackers on our new benchmark. Finally, TaMOs achieves highly competitive results on single-object GOT datasets, setting a new state-of-the-art on TrackingNet with a success rate AUC of 84.4%. Our benchmark, code, and trained models will be made publicly available.

translated by 谷歌翻译